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一 种 在 矩阵 空间 中 识别 文本 蕴涵 的 动态 交互 网 络 
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摘 要 : 针对 文本 蕴涵 问题 提出 一 种 动态 交互 网 络 (dynamic interactivenetwork，DIN) 进行 识别 。 不 同 于 已 有 交互 模 

型 ，DIN 将 两 各 词 向 量 投射 到 二 维 纶 阵 空间 中 进行 交互 ， 然 后 利用 输出 纶 阵 为 同时 处 理 上 下 文 信息 和 控制 信息 流动 的 

GRU 编码 器 生成 动态 权重 。 前 者 通过 更 高 阶 形式 的 信息 交互 挖掘 深层 逻辑 片段 , 后 者 通过 改变 交互 信息 与 上 下 文 信息 
的 结合 模式 帮助 编码 器 有 效 区 分 两 者 的 重要 性 差异 。 模 型 在 SNLI 测试 集 上 获得 了 88.0% 的 识别 准确 度 ， 超 过 已 有 最 

佳 模型 ， 且 使 用 的 训练 参数 仅 为 它 的 一 半 。 
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Dynamic interactive network over matrix-space for recognizing textual entailment 


Huo Huanl2, Liu Liang!i 
(1. School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & technology, Shanghai 200093, 
China; 2. Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China) 


Abstract: This paper presented a dynamic interactive network (DIN) for recognizing textual entailment. Unlike the other 
interactive models, DIN facilitates the interaction by projecting the embedding vectors into a two-dimensional matrix space, and 
then uses the output matrices to produce dynamic weights for the GRU encoder that both processes the context information and 
controls the information flow. It empowers the extraction of logic segments through higher-orders of information interactions 
and helps the encoder better choose between the context and the interactive information. Experiments on the SNLI corpus show 
that our model achieves a test accuracy of 88.0%, outperforming the state-of-the-art with only a small amount of the training 
parameters introduced. 
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网 络 模型 取而代之 成 为 主流 。 台 ， 这 类 模型 普遍 采 


J 


用 编码 

器 对 两 句 进行 独立 编码 ， 常 用 的 有 两 类 : 基于 线性 结构 的 (如 
随 着 自然 语言 处 理 领 域 研究 的 不 断 深 入 ， 如 何 让 机 器 真正 GRUBI) 和 基于 树 结构 的 (如 quasi-TreeLSTM 铅 ) 。 在 获得 两 
地 理解 自然 语言 ， 而 不 仅仅 停留 在 对 表层 语义 的 理解 上 ， 成 为 ”个 高 度 概括 了 上 下 文 信息 的 编码 向 量 后 ， 通 过 一 系列 比较 方法 
F 多 学 者 面临 的 问题 申 。 围 绕 这 一 问题 展开 的 众多 研究 中 有 (如 向 量 作 差 ， 元 素 相 乘 ) 将 两 者 合 二 为 一 并 输入 分 类 器 进行 


别 前 


项 基础 性 工作 一 一 识别 文本 蕴涵 〈recognizing textual 标签 预测 。 但 是 
entailment， RITE) ,， 它 依托 自然 语言 句子 ， 旨 在 通过 推理 来 识 时 ， 必 定 会 忽略 很 多 重要 信息 ， 导 致 此 类 模型 的 识别 准确 度 很 


i 提 句 (premise， 简 称 P 句 ) 和 假设 句 (hypothesis， 简 称 HH 难 有 提升 。 


， 当 一 个 句子 经 编码 压缩 后 仅 剩 一 个 向 量 表示 


句 ) 之 间 存 在 的 逻辑 关系 《下 一 节 将 给 出 详细 定义 ) ， 是 对 深 为 此 ， 模 型 61 进一步 提出 利用 关注 力 机 制 中 来 捕捉 词 与 词 


领域 都 有 重要 的 促 ; 


导语 义 挖掘 的 重要 实践 ， 在 语义 搜索 ， 人 机 对 话 ， 问 答 系统 等  ” 间 的 语义 联系 。 相 较 之 前 模型 ， 关 注 力 机 制 通过 逐 词 匹配 进行 


二 


别 模型 由 于 繁复 的 推理 流程 逐渐 被 弃 用 ， 可 端 到 端 训练 的 神经 ”在 两 句 信 息 的 流动 上 ， 因 此 仅 被 认为 存在 一 定 的 弱 交 互 怕 


Ba 
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作用 。 推理 ， 充 分 利用 原本 被 忽视 的 保存 在 各 词 编码 向 量 内 的 信息 ， 
近年 来 ， 得 益 于 神经 网 络 在 机 器 翻译 研究 上 的 成 功 ， 为 识 。 大 幅 提 升 了 原 有 模型 的 识别 准确 度 。 但 是 ， 由 于 编码 完 后 句子 


别 文 本 蕴涵 提供 了 诸多 新 的 思路 说， 原本 被 广泛 使 用 的 传统 识 ”的 信息 就 被 固定 在 单个 向 量 里 ， 此 类 模型 的 交互 性 并 不 能 
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为 了 促进 句子 对 间 信 息 的 真实 流动 ， 


对 间 的 语义 逻辑 关系 ， 一 系列 强 交 互 模型 
们 的 一 大 特点 是 ， 在 编码 一 个 句子 的 过 程 中 必须 兼顾 男 一 个 句 
子 己 有 的 编码 信息 。 由 于 强调 了 信息 流动 的 重要 性 ， 强 交互 模 


以 便 更 好 地 建 模 句子 
被 相继 提出 [0， 它 


型 的 识别 准确 度 普遍 高 于 独立 编码 和 弱 交 互 模型 。 


基于 强 交 互 的 思想 ， 本 文 提出 一 种 


高 效 的 动态 交互 网 络 


(DIN) 来 识别 文本 蕴涵 。 图 1 展示 了 DIN 的 结构 全 貌 ， 它 整 
体 上 遵循 851 的 逐 词 交 互 方式 。 相 较 于 已 有 强 交 互 模型 , DIN 做 
出 了 如 下 两 点 改变 : 


a) 受 连续 语 


义 (continuation semantics) 0 的 启发 ，DIN 将 


两 句 中 参与 交互 的 词 向 上 


于 传统 交互 模型 


表 更 高 维 信息 间 的 交互 ， 利 于 模型 挖掘 出 隐藏 在 更 深 处 的 逻辑 


关系 片段 。 


时 投射 到 二 维 矩 阵 空 间 进行 交互 。 相 较 


4 中 向 量 间 的 按 元 素 乘 法 或 加 权 和 ， 和 矩阵 乘法 代 


b) 受 动态 网 络 权重 生成 模型 52 的 启发 ， 在 编码 五 句 的 某 
时 刻 t， 利 用 交互 获得 的 输出 矩阵 可 以 生成 一 组 只 针对 当前 时 


1 ”相关 工作 


十 
佳 
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刻 的 权重 三 元 组 (Wi, Wt, WE)， 分 别 作 为 GRU 编码 器 在 此 时 
刻 的 重 置 门 (reset gate) ,更 新 门 (update gate) 和 候选 激励 


(candidate activation ) 的 计算 权重 。 


皮 


值得 注意 的 是 ， 此 处 的 GRU 编码 器 在 强 交互 模型 中 扮演 


两 个 角色 : 编码 当 


的 流动 。 传 统 交 互 模型 在 逐 


量 作为 一 个 额外 的 
容易 混淆 上 下 文 信 


个 包含 过 多 的 无 效 信 息 
相反 地 ，DIN 利用 上 一 步 匀 


前 句 的 上下文 信息 和 控制 交互 信息 在 


人 句 间 


词 编码 的 过 程 中 会 将 两 名 的 交互 向 


向 量 形式 ， 训 轻 熟 重 对 编码 器 来 说 很 难 权 衡 ， 并 且 
息 ， 很 容易 会 覆盖 男 一 个 中 的 有 效 信息 。 


成 编码 器 的 计算 权重 , 以 和 


尽量 减 小 它们 


E 阵 化 带 来 的 优势 ， 将 交互 信 | 


输入 引入 计算 步骤 ， 这 种 做 法 的 一 个 浆 端 是 
息 和 交互 信息 。 由 于 两 者 同 为 输入 ， 且 都 是 
当 其 中 的 一 


息 转 换 


上 下 文 信息 不 同 的 形式 将 两 者 融合 ， 


在 SNLI (Stanford natural language inference ) 数据 和 
的 实验 证 明 DIN 通过 使 用 较 少 的 训练 参数 获得 了 比 已 有 交互 


姑 直 接著 加 带 来 的 不 利 影响 。 


模型 更 高 的 识别 准确 度 。 


图 1 DIN 模型 概览 


现 有 的 为 句子 对 建 模 的 强 交 互 模型 
在 编码 一 个 句子 的 同时 需要 兼顾 男 一 个 句子 的 信息 。 按 照 信息 


不 多 , 此 类 模型 强调 


memory networks0445 的 启发 ，Cheng 等 人 06 提 
cell 里 加 入 两 块 额外 的 内 存 区 域 ， 


传统 的 LSTM 


Update 
Gate 


Candidate 
Activation 


过 程 中 各 时 刻 的 hidden states 和 cell states， 采 用 关注 力 机 


流动 的 方向 ， 大 致 可 以 分 成 两 类 : 
(一 般 由 P 句 向 H 句 流 动 )。Lei 等 人 提出 的 
ILSTM， 对 采用 关注 力 机 制 进行 逐 词 对 齐 的 经 典 模型 word-by- 
word attentionD 进 行 修改 , 用 编码 H 句 过 程 中 LSTM 编码 器 的 


a) 单 向 的 


细胞 状态 (cell 


对 齐 操作 , 这 意 


state ) 而 非 隐 


含 状态 (hidden state) 同 P 句 进行 


程 产生 影响 , 输出 的 编码 向 量 必 定 会 包含 
IN 抛弃 关注 力 机 制 而 直接 改 用 两 个 控制 门 来 匹 


等 人 四 提 出 的 S 
配 当前 词 与 另 
读 一 遍 当前 词 ， 


味 着 P 名 信息 会 直接 对 五 名 在 各 时 刻 的 编码 过 


彼此 的 交互 信息 。Liu 


一 句 各 词 。 接 着 ， 增 加 一 个 额外 的 LSTM cell 重 
过 程 中 融入 已 有 的 交互 信息 。 
模型 包含 以 P 句 和 HH 句 为 基准 


然而 , 完整 的 SIN 


的 两 次 方向 相反 的 独立 交互 , 涉 


及 至 少 六 次 编码 操作 ， 训 练 成 本 非常 高 ， 很 难 用 于 实践 。 受 


RNNs/LST™s 


读 取 它们 ， 
中 一 直 存 


出 的 LSTMN 在 
分 别 保存 编码 


剖 来 


这 在 一 定 程度 上 缓解 了 传统 


在 的 长 期 依赖 问题 (long-term 


dependency )。 进 一 步 ,为 了 适应 句子 对 建 模 而 设计 的 deep fusion 


attention 模型 ， 


对 两 句 都 采 


得 的 交互 信息 会 参与 更 新 当前 细胞 状态 。 


b) 双 向 的 。 文 献 [8,9] 


用 LSTMN cell 编码 , 但 在 编码 HH 句 
的 各 时 刻 会 采用 关注 力 机 制 与 P 句 两 个 额外 内 存 分 别 匹 配 ， 获 


E 后 提出 过 两 种 强 交 互 模型 ， 分 别 是 


DF-LSTMs 和 Coupled-LSTMs。 不 同 于 单 向 模型 ， 它 们 对 两 句 


采取 同步 编码 的 方式 , 交互 信息 会 同时 参与 对 两 句 的 编码 过 程 。 


同 LSTMN 类 


通过 当前 词 与 


已 有 的 交互 信 ， 
保存 的 交互 信息 


已 有 交互 信息 
息 是 通过 关注 力 机 制 同步 读 取 两 句 在 各 


以 ，DF-LSTMs 采用 一 块 额外 的 内 存 区 域 来 存储 
的 比较 获得 新 的 交互 信息 。 其 中 ， 
自 外 存 内 


\ 组 合 而 成 的 。 与 SIN 类 似 ，Coupled-LSTMs 也 


录用 稿 


由 弃 关 注 力 机 制 , 通过 网 格 化 排 布 的 LSTM cells 来 直接 编码 两 
名 的 上 下 文 信息 ， 因 此 获得 的 编码 后 的 向 量具 有 更 强 的 耦合 特 


狂 


Lo 


可 以 发 现 ， 上 述 模型 的 一 个 共同 特点 是 为 了 满足 信息 流动 


Chit 
霍 ” 欢 ， 等: 一 种 在 矩阵 空间 中 识别 记 


Pr(y|P, 了 是 一 向 量 , 每 一 维 代表 选择 y 中 一 个 标签 的 概率 , y* 即 
是 概率 最 大 的 那个 标签 ， 之 后 会 进一步 讨论 它 的 求解 。 
在 这 里 , 每 个 x 都 是 一 个 固定 长 度 的 词 向 量 , 一 般 使 用 预 训 


练 的 词 向 量 如 GloVeP?1 或 word2vecP29 进 行 初始 化 。 对 超出 词 表 


性 ， 会 对 编码 器 的 计算 过 程 进 行 一 定 的 修改 ， 将 另 一 句 编码 信 
息 融 入 到 当前 句 的 编码 过 程 中 。 这 种 方法 类 似 于 经 典 的 神经 网 
络 翻译 模型 791， 缺点 在 于 影响 是 间接 产生 的 ， 无 法 清楚 知道 编 
码 器 自身 捕获 的 上 下 文 信息 和 额外 的 交互 信息 间 的 重要 程度 差 
异 。 相 较 而 言 ， 本 文 提出 的 动态 交互 模型 DIN 由 动态 生成 的 权 
重 来 承载 信息 的 流动 ， 影 响 是 直接 产生 的 ， 且 可 以 通过 变化 的 
权重 量化 展示 上 面 提 及 的 差异 性 〈 参 考 图 3 和 相关 分 析 ), 利于 
人 们 对 模型 作用 机 理 的 理解 。 


2 DIN 模型 


2.1 问题 描述 

识别 文本 蕴涵 是 机 器 理解 自然 语言 的 关键 工作 ， 核 心 是 对 
自然 逻辑 Cnaturallogics ) 0 的 理解 。 根据 MacCartney 等 人 09:20 
的 叙述 ， 一般 认为 存在 着 16 种 基本 的 语义 逻辑 关系 ,其 中 有 9 
种 是 退化 的 ， 即 它们 的 表达 相对 空洞 ， 在 实践 中 很 难 见 到 ， 剩 
下 的 7 种 逻辑 关系 被 统一 划分 为 三 大 类 : 
表 1 列 出 的 三 个 例子 ， 
它们 拥有 相同 的 P 句 : families waiting in line at an amusement 
ark for their turn to ride the carousel (好 多 家 庭 在 游乐 场 里 排队 
旋转 木马 ) ， 根 据 互 句 的 表述 不 同 ， 被 分 别 标记 了 不 同 的 标 
。 第 一 个 例子 中 ，H 句 中 的 people 和 P 句 中 的 families 有 明 
的 等 价 关系 ，at an amusement park 又 可 以 找到 完全 对 应 的 词 
因此 两 句 被 判定 为 存在 蕴涵 关系 。 第 二 个 例子 中 ，H 句 中 
中 ride the carousel 两 个 动作 存在 不 对 称 
性 ， 因 此 被 判定 为 矛盾。 第 三 个 例子 中 ，H 句 中 对 餐厅 的 评价 
与 P 句 没有 任何 逻辑 上 的 关联 性 ， 因 此 无 法 给 出 明确 的 判定 标 
签 。 这 里 的 三 个 例子 相对 简单 ， 机 器 要 正确 做 出 正确 的 判断 也 
相对 容易 ， 但 当 某 个 句子 存在 过 多 元 余 信 息 或 者 线索 分 布 在 多 


蕴涵 (entailment) 、 


矛盾 (contradiction ) 和 中 立 Cneutral ) 。 


[| 之 


pa 


印 内 


9 


RS 
wR 
加 
0 


e a movie 和 了 P 名 


TE 


个 不 同位 置 需 要 整体 把 握 时 ， 机 器 就 很 难 进行 正确 的 推 
表 1 三 个 被 不 同 标记 但 有 相同 前 提 句 〈Premise) 的 例子 
假设 句 〈Hypothesis ) 类 别 
People are at an amusement park.， (人 们 在 游乐 场 ) 蕴涵 
people are waiting to see a movie。，〔 人们 在 等 待 看 电影 ) 矛盾 
the restaurant is very bad. (这 家 餐厅 不 怎么 样 ) 中 立 
2.2 ” 藤 入 层 
一 个 RTE 任务 可 以 由 如 下 三 元 组 表示 : 
(P, H,y) C1 
其 中 :P = (x4,…,X%, ) 代 表 长 度 为 6p 的 P 句 ，H = (xi…,xp) 代 


表 长 度 为 妇 的 再 句 ，y 是 人 工 标注 的 标签 (golden label) 。 在 
给 定 P 和 五 情况 下 ， 模 型 要 对 两 句 的 标签 进行 预测 : 
yeyPr(yIP, H) (2) 


条 件 概 率 


天 


) = argmax 


其 中 :y= {Entailment,Contradiction, Neutral} 。 


范围 的 词 则 通过 相同 长 度 的 随机 向 量 进行 初始 化 。 
2.3 ”编码 层 
图 1 可 知 ， 本 文 模型 中 信息 是 由 P 句 向 H 句 单 向 流动 
的 ， 这 意味 着 P 句 信息 始终 保持 固定 ， 为 了 更 好 地 获得 它 的 上 
下 文 信息 ， 本 层 使 用 一 个 GRU 编码 器 对 它 进行 编码 。GRU 
(Gated Recurrent Unit) 最 先 由 ChungJ 等 中 提出 , 它 作 为 LSTM 
(Long Short-Term Memory Networks ) 一 种 变 体 ， 握 弃 了 原本 
在 LSTM 中 独立 存在 的 记忆 单元 (memory cell) ， 因 此 拥有 更 
简单 的 控制 门 结构 。 
体 地 ， 当 前 词 x/,T e [二 …, 如] 的 编码 向 量 h 是 由 此 时 刻 
的 候选 状态 及 和 上 一 时 刻 的 状态 hi_1 通 过 线性 差 值 函数 获得 : 

hh = (1 — zh + zh (3) 
其 中 :对 是 更 新 门 (update gate) ， 它 决定 了 哪些 信息 需要 被 更 
新 ， 有 具体 计算 过 程 如 下 : 

Zz’ = o(Ws: [h;_1, Xx:] + b;) (4) 

可 见 ， 更 新 门 是 对 已 有 状态 hi_1 和 当前 词 x1 的 线性 求 和 。 

另 一 方面 ， 候 选 状态 hi 的 计算 则 与 传统 的 循环 单元 类 似 : 
hi = tanh(Wh: [rs * hs_1, Xx] + bh,) (5) 


其 中 :rt 是 重 置 门 (reset gate), 它 决定 了 哪些 信息 需要 被 重 置 ， 
具体 与 更 新 门类 似 : 
rs = o(Ws: [hs_1, xt] + b;) (6) 
上 述 的 W: 和 b: 是 各 个 控制 门 计算 的 权重 矩阵 和 偏 移 向 量 。 
2.4 变换 层 


受 编程 语言 理论 (programminglanguagetheory) 2 的 启发 ， 


Baker 等 人 0 提出 了 连续 语义 Ccontinuation semantics ) 的 概念 。 
他 们 认为 ， 在 自然 语言 中 有 很 大 一 部 分 的 表达 (expression) 是 通 


过 语义 组 合 (semantic composition ) 获得 的 , 但 并 非 是 简单 的 词 
与 词 之 间 的 拼接 ， 而 是 需要 转换 成 更 高 阶 的 形式 。 本 工作 未 
接 涉 及 语义 组 合 ， 但 在 某 种 程度 上 ， 词 对 间 逻 辑 关 系 的 匹配 
类 似 于 语义 组 合 ， 因 为 两 者 的 工作 方式 几乎 如 出 一 略 ， 都 根 
词 对 间 的 语义 关系 进行 比较 融合 。 由 此 ， 本 层 将 了 P 句 的 嵌入 
词 向 量 和 理 句 经 上 一 层 编码 后 的 词 向 量 一 起 投射 到 二 维 算 阵 空 
间 ， 具 体 过 程 如 下 : 
W = tanh(Wiransc + birans) (7) 

其 中 ，WuanseRVvdxvdxde，buanseRydxvd，d 是 编码 向 量 长 度 ， 
dc 是 向 量 c 的 长 度 。 对 P 句 , c 是 编码 向 量 hteRdTre [1,…, tp]; 
对 于 句 , 是 词 嵌 入 向 量 xteRdemn,t e [1,… ,fa]。 变换 层 的 输出 
WW 是 一 个 大 小 为 Vq x Vd 的 矩阵 ,考虑 到 根 号 的 存在 , 在 实践 中 
d 一 般 取 256、324 和 400 等 可 被 开 方 的 值 。 
2.5 交互 层 

经 过 上 一 层 的 转换 ， 我 们 获得 了 各 词 比 向 量 更 高 阶 的 矩阵 
表示 。 为 了 促进 矩阵 间 的 交互 ， 本 层 采用 和 关注 力 机 制 类 似 的 
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逐 词 匹 配方 式 ， 不 同 点 在 于 ，H 句 当 前 词 与 P 句 各 词 进 行 对 齐 加 (en | 

时 ， 不 会 给 P 句 各 词 分 配 权重 ， 而 是 以 更 简单 的 矩阵 乘法 实现 pi/ \b', 

当前 词 与 P 句 各 词 的 逐一 交互 。 具 体 地 ，H 句 当前 词 xt 与 P 名 Wion € RXd, bion E Rd 

某 词 x 的 交互 方式 如 下 : TO 一 MATRIX 和 VECTORIZE 分 别 指 的 是 矩阵 化 和 向 量化 。 
Wt = tanh(WiW, + Winter Wt_1 + binter) (8) 两 种 方法 的 区 别 在 于 : DIN-1 计算 稍 复 杂 ， 需 要 多 次 在 向 量 和 


eRvdxvd。 实 际 上 ， 上 述 计算 过 程 。 和 矩阵 间 进 行 转换 ;但 相 较 于 DIN-2， 它 使 用 的 训练 参数 更 少 ,但 


其 中 : WeRVvdxvd，b， 
inter i 


nter 


可 被 类 比 为 一 个 针对 矩阵 运算 的 简单 的 循环 神经 网 络 单元 : 也 可 能 因此 而 无 法 学 得 更 多 的 表达 。 

Wt = RNN(Wt_1, W.)。 2.7 输出 层 

2.6 控制 层 在 模型 的 最 后 一 层 ， 使 用 平均 池 化 (average pooling ) 来 组 
经 过 上 一 层 的 交互 , 在 了 HH 句 的 各 个 时 刻 t, 都 会 输出 一 个 甜 合 控制 层 各 时 刻 的 输出 ， 得 到 一 个 固定 长 度 的 向 量 : 


阵 W 和 。 与 编码 层 类 似 ， 本 层 的 核心 也 是 一 个 GRU 编码 器 ， 但 R= h, (24) 
它 在 将 交互 信息 融入 到 对 H 句 编码 的 同时 ,也 控制 着 两 句 间 信 其 中 :PH 是 H 句 的 长 度 。 至 此 ， 所 有 的 词 或 短语 级 别 的 推理 都 
息 的 流动 程度 ， 因 此 我 们 将 本 层 称 为 控制 层 。 不 同 于 已 有 强 交 。 ”被 融合 来 决定 最 后 的 判断 。 接 着 ， 将 h 输 入 到 一 个 多 层 感 知 机 
互 模型 通过 修改 编码 器 计算 步骤 ， 将 两 句 的 交互 信息 作为 一 个 (multi-layer perceptron，MLP) ， 它 包含 两 个 全 连接 层 (fully- 
输入 源 接 入 当前 句 的 编码 计算 ， 本 文 模型 不 对 GRU 本 身 做 任 。” ”connected layer) 和 一 个 softmax 分 类 器 : 


于 = ” 何 修 改 ， 而 是 利用 算 阵 化 带 来 的 优势 ， 使 用 交互 层 的 输出 矩阵 h= FC(h) (25) 

~ 动态 生成 GRU 计算 所 需要 的 三 个 权重 矩阵 -更 新 门 Wt、 重 置 门 Pr(y|P,H) = softmax(Wo"Puth + bovtput) (26) 

EN ”Wt 和 候选 激励 Wt。 其 中 :Woutput € R3xd, boutput € 有 R3。Pr(y|P,H) € RR 就 是 式 (1) 
注意 到 交互 层 的 输出 和 矩阵 (Vd x Vd) 和 本 层 的 两 个 输入 xt、 中 的 条 件 概 率 ， 最 后 选择 概率 值 最 大 的 那 一 维 的 标签 作为 预测 


ht-1(d) 在 维度 上 并 不 对 称 ， 为 此 ， 本 文 提出 两 种 方式 来 实现 。 标签 。 


这 个 拥有 动态 权重 的 GRU 控制 层 : 2.8 ”复杂 度 分 析 
a)DIN-1。 将 两 个 输入 的 d 维 向 量 转换 成 Vd x Vd 的 矩阵 ， 为 了 让 读者 对 DIN 模型 的 训练 效率 有 更 好 的 理解 , 本 节 对 
体 如 下 : 模型 的 复杂 度 进 行 一 定 的 分 析 。 为 了 简化 表述 ， 词 向 量 和 编码 
Hi = TO — MATRIXCh 1) (9) 向 量 的 长 度 被 统一 定义 为 4d， 并且 用 ?来 表示 句子 长 度 。 
2 = o(Wi: [Hi Wl] + bt) (10) 在 编码 层 ，GRU cell 中 权重 矩阵 《dx d) 和 向 量 (d) 的 
Re = o(Wt [Hoi, Wo] + bt) (11) 乘法 运算 的 复杂 度 是 0(d?)。 因 此 , 对 整 句 编码 的 计算 复杂 度 是 
BH, = tanh(W$ : [Re * Hi_1, Woe] + b$) (12) 0(#d?)。 在 变换 层 , 将 两 句 从 原先 的 词 向 量 (d) 表示 向 矩阵 空 
Hi= (1—2)*H,1+Z.* HH, (13) 间 (Vd x Vd) 投射 的 复杂 度 是 0Cd2)。 在 交互 层 ， 类似 嵌 套 循 
h, = VECTORIZE(H') (14) 环 的 结构 使 它 的 复杂 度 变 为 0(f?d)。 在 控制 层 ， 根 据 动态 权重 
其 中 : 生成 方法 的 不 同 ， 相 较 于 复杂 度 是 0(4d) 的 DIN-1，DIN-2 由 于 
加 ( 柯 采用 了 重 参数 化 方法 〈re-parameterization ) ， 使 复杂 度 提高 到 
Wt | = tanh | WeonWE, + bron (15) 
ws Wh pb 0(?d?)。 综 上 ，DIN-1 和 DIN-2 的 整体 复杂 度 分 别 为 O(2d? 十 
加 全 ) P2d 二 bd) 和 0(Pd? + f2d + fd?)。 根据 观察 , {一般 都 小 于 d， 如 
bt | = tanh| BionWws (16) 
bs bisa 在 SNLI 数据 集 里 P 句 、H 句 的 平均 长 度 和 最 大 长 度 分 别 为 34 
Wan € RVAXVd, B:o, € RVAXVA, p:o, € RVIXVd 和 68、28 和 58， 而 预 训练 词 向 量 维度 一 般 都 在 300 左右 。 因 
b)DIN-2。 将 交互 层 输出 的 Vd x Vd 的 矩阵 转换 成 d 维 向 量 ， ”此 ， 两 个 模型 的 复杂 度 主要 都 集中 在 复杂 度 为 0(V?d) 的 交互 层 
具体 如 下 : Es 
2 = (0 [hy Xe i] + bt) (17) 2.9 训练 目标 
mi = o(Wt: [he xe 1] + bt) (18) 由 于 RTE 的 本 质 是 一 个 分 类 问题 ， 本 文采 用 交叉 炳 损失 
hi, = tanh (WE: [re * h,xe_1] + bt$) (19) (cross entropy loss) 作为 训练 的 目标 函数 。 有 具体 地 ， 当 给 定 训 
hs = (1 —2)*h,1+ Ze*h, (20) 练 集 里 各 个 句子 对 的 真实 标签 (ground-truth label) w 和 训练 参 
其 中 : 数 集 6， 目 标 函 数 可 组 织 如 下 : 
人 2 1(0) = — Ey logy: + 10 (27) 
Wz\) /Weon 
[ea (22) 其 中 :N 是 训练 集 的 大 小 ， 允 可 由 式 〈1) 求 得 。X 是 8 正则 化 参 
WE/ Wem 数 , 通过 [0.0, 1E-4, 3E-4, 1E-3] 内 小 规模 的 网 格 搜 索 (grid search ) 
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录用 稿 堆 Re 
后 发 现 ， 使 用 #2 正则 项 反而 会 拖 慢 训练 过 程 ， 还 伴 有 一 定 程度 表 2 已 有 模型 和 本 文 模型 在 SNLI 数据 集 上 的 表现 结果 对 比 
的 性 能 损失 。 因 此 ， 训 练 时 不 采用 #5 正则 项 来 强制 约束 训练 参 编号 ”模型 Para Train Test 
数 的 更 新 。 1 128D LSTM encoder 1.4M 83.9 81.8 
3 ”实验 分 析 2 100D word-by-word attentions! 250k 85.3 83.5 
3 600D DF-LSTMD! 2.8M 85.9 85.0 
3.1 实验 设置 4 50D stacked TC-LSTMs00l 190k 86.7 85.1 
3.1.1 数据 集 5 300D mLSTMIS 1.9M 92.0 86.1 
实验 使 用 Bowman 等 人 03 于 2015 年 发 布 的 SNLI 数据 集 ， 6 300D LSTMN with deep attention 17M 87.3 85.7 
它 被 广泛 用 于 测试 为 RTE 任务 设计 的 神经 网 络 模型 的 性 能 。 此 fusiontlg 
数据 集 总 共 包含 570,152 个 句子 对 ， 每 个 句子 对 都 被 人 工 标记 450D LSTMN with deep attention fusion = 3.4M 88.5 86.3 
了 以 下 标签 之 一 :entailment( 列 涵 ), contradiction( 了 矛盾 ), neutral 8 200D decomposable attention modelD3 382k 89.5 86.3 
(中 立 ) 和 -特殊 标签 , 表示 多 位 标注 者 未 在 此 句子 对 上 得 到 9 -with intra-sentence attention 582k 90.5 86.8 
一 致 的 标记 意见 )。 和 大 部 分 工作 的 处 理 方式 相同 ,本 文 去 掉 带 10 300D rLSTM 2.0M 90.7 87.5 
有 -的 句子 对 后 按照 549,367/9,842/9,824 的 比例 划分 训练 集 / 验 11 128D HyperLSTM (our 34M 88.1 83.2 
证 集 /测试 集 。 implementation)l12 
3.1.2 模型 参数 12 300D rLSTM (our implementation)!7 2.0M 88.9 86.6 
从 训练 集 /验证 集 / 测 试 集中 一 共 收 集 到 34 877 个 不 同 的 词 ， 13 16x16D DIN-1 498k 89.5 86.7 
以 此 作为 训练 的 词 表 (vocabulary)。 其 中 ， 有 30 626 个 词 能 够 14 16x16D DIN-2 889k 88.9 86.0 
在 预 训练 词 向 量 集 840B-GloVe?1 中 找到 。 对 OOV (out-of- 15 18x18D DIN-1 Tl8k 90.2 87.4 
vocabulary) 词 ， 使 用 [-0.05,0.05] 内 的 随机 分 布 向 量 作为 初始 化 16 18x18D DIN-2 13M 89.6 86.8 
词 向量 。 词 向 量 的 长 度 固定 为 300。 编 码 向 量 的 长 度 由 于 要 便 17 20x20D DIN-1 1.0M 90.5 88.0 
于 开 方 操作 ， 分 别 设计 了 [16*16，18*18，20*20] 三 组 进行 实验 18 -without dynamic generated weights 1.9M 89.8 86.2 
比较 。 需 要 注意 的 是 ， 虽 然 同 时 训练 词 向 量 会 带 来 一 定 的 性 能 19 20x20D DIN-2 1.9M 90.1 87.2 
提升 ， 但 考虑 到 词 向 量 矩 阵 十 分 庞大 ， 所 带 来 的 内 存 负载 也 是 


同时 也 实现 了 两 个 基准 模型 HyperLSTMII2 和 rLSTMI7， 
有 以 下 发 现 : 
a)HyperLSTM (11) 使 用 一 个 基于 主 LSTM 的 小 LSTM 来 
动态 生成 主 LSTM 的 权重 ， 它 原本 为 单 句 建 模 设 计 ， 现 置 于 句 
子 对 场景 下 ， 相 当 于 要 同时 训练 四 个 LSTMs， 训 练 权重 数量 
长 部 分 拖 慢 了 训练 ,导致 更 严重 的 过 拟 合 现象 产生 ,不 仅 如 此 ， 
模型 参数 设置 复杂 ,状态 向 量 和 词 丛 入 向 量 的 维度 间 难 以 平衡 。 
虽然 模型 表现 不 理想 (83.2%)。 但 比较 LSTM encoder (1), 它 
的 优势 仍 明 显 ， 证 明 动 态 权 重 在 RTE 任务 下 是 有 效 的 。 

b)rLSTM (12) 作为 一 种 典型 的 强 交 互 模型 , 逐 词 匹 配 的 操 
作 方 式 和 DIN 类似。 虽然 尽量 沿用 了 文献 外 给 出 的 实验 参数 ， 
但 由 于 某 些 重要 参数 无 法 获得 ,导致 测试 集 准确 度 (86.6%) 与 


本 1 个 立 给 结 .59 有 一 定 共 出 要 硫 于 民生 入 
(training steps) 设置 了 0.95 的 衰减 率 (decay rate );， 同时 观察 论文 给 出 结果 (87.5%) 定 的 出 入 。 但 相 较 村 word-by-word 
attention (2), 性 能 提升 仍然 相当 明显 , 证 明 强 交互 性 在 RTE 任 


到 在 SNLI 数据 集 上 测试 的 端 到 端 模型 特别 容易 发 生 过 拟 合 
Coverfitting) 的 现象 ， 因 此 引入 dropout 机 制 59， 在 编码 层 的 务 下 是 有 效 的 。 
出 的 两 种 DIN 模型 的 性 能 都 随 着 交互 矩阵 规模 的 


输入 和 输出 端 、 控 制 层 的 输出 端 随机 关闭 20% 的 神经 元 。 9 本 文 提 
3.2 定量 分 析 变 大 稳步 提升 。 性 能 最 佳 出 现在 20x20D DIN-1 (17)， 超 过 已 


为 了 更 全 面 地 评估 DIN 的 性 能 ， 表 2 列 出 了 一 系列 已 有 有 的 最 佳 模型 300D rLSTM (9)， 并 且 用 到 的 训练 参数 仅 为 后 


模型 进行 对 比 。 其 中 ，Para 是 除 词 向 量 以 外 模型 用 到 的 训练 参 ”者 的 一 半 。 


数 的 个 数 ，Train 和 Test 分 别 代表 在 训练 集 和 测试 集 上 的 准确 d) (18) 采用 削减 法 (ablation method), 去 掉 20 X20D DIN- 
度 (%)。 1(17) 控制 层 中 的 权重 动态 生成 操作 , 将 交互 层 输出 矩阵 转换 
成 向 量 后 直接 作为 GRU 编码 器 的 一 个 输入 。 可 以 看 到 ， 仅 剩 


巨大 的 ， 因 此 本 实验 不 会 在 训练 过 程 中 更 新 词 向 量 和 矩阵 。 小 批 
量 训练 (mini-batch training) 的 大 小 为 128， 会 在 一 个 batch 中 
长 度 不 够 的 句子 后 面 补 上 额外 的 null 标记 , 它 对 应 的 是 一 个 300 
维 的 0 向量 。 训 练 兴 代数 (training epochs) 为 30， 当 连续 3 次 
迭代 在 验证 集 上 的 准确 度 没 有 提升 甚至 出 现 降低 后 便 提 前 停止 
训练 (early stopping)。 我 们 会 保存 下 在 验证 集 上 准确 度 最 高 的 
那个 模型 ， 作 为 最 优 模型 来 对 测试 集 进行 预测 。 
3.1.3 超 参数 

采用 Kingma 等 人 3 提出 的 ADAM 作为 梯度 下 降 优 化 器 。 
其 中 ， 第 一 动量 系数 (first momentum coefficient〉B1 和 第 二 动 
量 系数 分 别 设 为 0.9 和 0.999。 初始 学 习 率 (initial learning rate ) 
为 0.001。 为 了 加 速 梯度 下 降 过 程 ， 为 全 局 每 1000 训练 步 长 


以 


TS 
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矩阵 交互 的 DIN 模型 在 测试 集 上 的 准确 度 达到 86.2%， 虽 然 低 2 

于 LSTM (12)， 但 也 超过 了 表 2 中 大 部 分 的 已 有 模型 。 另 一 i . a 

方面 ， 比 完整 模型 (17) 少 的 1.8% 测 试 集 准确 度 也 进一步 证 明 me a 


了 动态 权重 的 有 效 性 。 
e) 有 趣 的 是 ， 尽 管 DIN-2 在 动态 生成 权重 时 用 到 的 训练 参 


数 数量 超过 DIN-1， 它 在 测试 集 上 的 表现 却 始终 差 于 后 者 ， 这 Po 
与 我 们 在 3.6 节 最 后 的 预 估 相反 。 可 能 原因 是 ，DIN-1 不 仅 在 必 中 四 
生成 动态 权重 时 保持 了 和 矩阵 计算 ( 式 (15)(16))，GRU 的 编码 步 , 
又 也 全 部 抢 阵 化 〈 式 (9)~(14))， 保 证 了 和 交互 层 在 计算 上 的 连 = - 
贯 性 ， 也 从 侧面 说 明 矩 阵 比 向 量 能 承载 更 多 的 语义 信息 。 we | 
实验 结果 证 明 ， 通 过 矩阵 化 和 动态 权重 两 者 的 相互 促进 ， gs 
模型 能 在 保持 精简 结构 (训练 参数 少 于 大 多 数 已 有 模型 ) 的 前 i ia 
提 下 ， 获 得 更 高 的 测试 集 识别 准确 度 。 全 及 
3.3 定性 分 析 所 2 
为 了 更 直观 地 理解 DIN 模型 的 交互 性 ， 通 过 如 下 方式 获 < 和 
得 耳 句 词 xx 与 P 句 的 交互 向 量 ; EH | 
Vt = VECTORIZE(W!:) € R? (28) | 
at = £2 — norm|Ivtl|, (29) 图 2 展示 最 佳 模 型 20x20D DIN-1 交互 性 的 三 个 例子 。 
= me [0,1] (30) ,we 
aa | 
| ml 
1 ={ 油 (31) | | 
其 中 : Wt, te[1,… ,fp] 是 各 时 刻 t € [1,…, by] 在 交互 层 的 输出 矩 -ek 
阵 ， We 0 se P 句 词 x4 > "WB Woe 六 和 
的 匹配 程度 。 届 国 回 力 
图 2 中 使 用 热力 图 (heat map ) 来 展示 各 时 刻 的 交互 向 量 ， We 
三 个 例子 是 手工 从 测试 集 里 选取 的 ， 它 们 拥有 相同 的 P 句 : a BE- a 
guy in glasses is biting into a pink marshmallow chick while i 
somebody else is puckering their lips out wanting a bite (一 个 戴 眼 国 加 - 目 a 四 面 同 后 
镜 的 男孩 嘴 里 吃 着 小 鸡 棉花 糖 ， 另 一 个 人 嘟 着 嘴 也 想 党 一 党)。 图 3 展示 控制 层 GRU 编码 器 权重 动态 变化 的 三 个 例子 。 
第 一 个 例子 〈 图 2 上 ) ， 模 型 首先 正确 识别 出 了 两 个 近似 词 对 另 一 方面 , 也 采用 同样 的 方法 来 展示 控制 层 权 重 在 各 时 刻 
(man，guy) 和 (eats，biting)。 如 果 仅 以 此 为 依据 ， 句 子 对 会 的 动态 变化 。 图 3 中 的 三 个 例子 各 自 对 应 图 2 中 的 三 个 再 句 。 


被 误 判 为 存在 蕴涵 关系 ,但 之 后 , 模型 又 挖掘 出 了 hamburger 和 ” 红 、 蓝 、 绿 三 色 分 别 代表 控制 层 GRU cell 的 更 新 门 (Wt)、 重 
marshmallow 间 明 显 的 矛盾 关系 ， 因 此 句子 对 人 逻辑 关系 反 转 ， 门 《Wt) 和 候选 激励 权重 (Wr ) 在 各 时 刻 的 变化 ， 变 化 范围 
最 终 判 定 为 矛盾 关系 。 第 二 个 例子 (图 2 中 )， 虽然 了 P 和 理 句 ” 都 为 [0,1]。 有 如 下 两 点 观察 : 
都 有 较 长 的 文本 结构 ， 但 大 部 分 被 明确 识别 的 词 对 都 只 存在 近 ga) 三 个 权重 色 块 都 相对 较 浅 的 词 ， 如 a，while，his (图 3 
似 关 系 , 如 (desires, wanting ), 因此 模型 将 其 判定 为 昔 涵 关系 。 上 )，else (图 3 中 )，as，for，does，in (图 3 下 )， 它 们 在 图 2 
第 三 个 例子 (图 2 下 ) 与 前 一 个 例子 类 似 ， 也 有 着 相当 长 的 文 中 并 未 产生 影响 模型 判断 结果 的 重要 的 对 齐 信息 ， 意 味 着 这 些 
本 结构 ， 但 在 HH 句 中 多 了 诸如 his last〈 他 最 后 一 口 的 ) 这 样 在 ， 词 无 法 刺激 模型 对 权重 进行 修改 来 编码 无 用 信息 ， 此 时 权重 的 
P 句 中 不 存在 修饰 句 和 his friend《〈 他 的 朋友 ) 这 样 在 P 句 中 不 ”动态 生成 处 于 休眠 状态 , 控制 层 只 着 重 编码 耳 句 的 上 下 文 信息 。 
存在 的 人 物 关 系 ， 还 多 了 额外 的 一 个 转折 名 buthe does not give b) 虽然 横 型 在 各 时 刻 生成 的 三 个 计算 权重 间 此 消 彼 涨 过 
in( 但 他 并 未 给 他 尝 )。 这 些 多余 信 息 在 P 句 中 都 无 法 找到 对 应 ” 于 随机 ， 无 固定 规律 可 循 ， 但 如 果 从 整体 上 看 三 个 权重 在 所 
面 (counterparts )， 使 模型 无 法 对 两 句 关系 做 出 明确 判定 ， 因此 ”时 刻 出 现 的 深 色 块 数量 , 可 以 发 现 候 选 激励 权重 变化 相对 频繁 ， 
给 出 中 立 的 判断 。 表明 候选 激励 在 各 时 刻 的 差异 性 更 明显 ， 对 两 句 信息 的 流动 起 

更 主要 的 控制 作用 。 


衬 
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DIN, 在 五 句 逐 词 与 P 句 匹 配 的 过 程 中 ， 


结束 语 


为 解决 识别 文本 蕴涵 问题 ， 本 文 提出 一 种 动态 交互 网 络 
结合 矩阵 化 和 动态 网 


络 权 重 两 种 方法 ， 将 词 向 量 投射 到 二 维和 矩阵 空间 进行 交互 ， 并 


叫 | 


利用 输出 矩阵 为 GRU 编码 器 动态 生成 计算 权重 。 在 SNLI 数据 


外 


a 


上 的 实验 结果 表明 ， 本 文 提出 
且 使 用 
动态 网 络 权重 的 情况 下 ， 单 纯 凭借 矩阵 交互 ， 模 型 的 识别 准确 


的 最 优 模型 超过 了 原 有 最 佳 ， 
。 此 外 利用 削减 法 ， 在 没有 


IR 


的 训练 参数 仅 为 后 者 的 一 


度 也 超过 


性 。 


多 数 交 互 模型 ， 进 一 步 证 明了 两 种 方法 各 自 的 有 效 
类 似 DIN 的 强 交 互 模型 性 能 普遍 优 于 弱 交 互 或 无 交互 模型 ， 
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但 却 鲜 少 有 相关 研究 。 未 来 也 将 继续 探索 此 类 模型 ， 一 个 可 行 


的 方向 是 让 交互 信息 同样 回流 到 原本 已 固定 的 P 句 中， 促进 两 
句 间 信息 真正 的 双向 流动 ， 从 而 提升 识别 准确 度 。 
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